AI资讯新闻榜单内容搜索- LLM

3700次预训练总结超参规律，开源海量实验，告别盲猜

近年来，大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而，要实现其高效部署，精细的超参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索，我们揭示了一套通用的最优超参数缩放定律（Optimal Hyperparameter Scaling Law）。

来自主题: AI技术研报

9735 点击 2025-03-13 15:15

开启空间智能问答新时代：Spatial-RAG框架来了

当涉及到空间推理任务时，LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系，还需要结合地理数据和语义信息，生成准确的回答。为了突破这一瓶颈，研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架，旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报

7167 点击 2025-03-07 10:34

实测 Manus：首个真干活 AI，中国造（附50个用例 + 拆解）

Manus 的产品名，意思为“手”，来自拉丁文 "mens et manus" —— 知行合一。它体现了一种理念：知识和智慧必须通过身体力行才能对世界产生正向影响。这就是 Manus 的追求，为 LLM 做一双能巧妙调用工具的手，从而扩展人的能力，让你心中的愿景成为现实。　

来自主题: AI资讯

13160 点击 2025-03-06 11:47

探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

在大语言模型 (LLM) 的研究中，与以 Chain-of-Thought 为代表的逻辑思维能力相比，LLM 中同等重要的 Leap-of-Thought 能力，也称为创造力，目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是，面对「创造力」，我们很难构建一个合适且自动化的评估流程。

来自主题: AI技术研报

7405 点击 2025-03-01 22:13

受R1启发，微软亚洲发布Logic-RL，帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning"，该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发，利用结构化的逻辑谜题作为训练场，为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报

7404 点击 2025-02-26 09:56

喝点VC｜a16z访谈Rasa创始人：我们没有幻觉的风险，没有提示注入和劫持等风险

我们现在使用 LLM 来处理所有的理解工作，并确保我们不会向用户发送任何生成文本，这样我们就可以完全自信地说，我们没有幻觉的风险，没有提示注入和劫持等风险。

来自主题: AI资讯

7198 点击 2025-02-23 16:11

基于 LLM 的查询扩展：信息更全，搜索更准

最初，查询扩展是为那些靠关键词匹配来判断相关性的搜索系统设计的，比如 tf-idf 或其他稀疏向量方案。这类方法有些天然的缺陷：词语稍微变个形式，像 "ran" 和 "running"，或者 "optimise" 和 "optimize"，都会影响匹配结果。虽然可以用语言预处理来解决一部分问题，但远远不够。技术术语、同义词和相关词就更难处理了。

来自主题: AI技术研报

8612 点击 2025-02-21 08:50

物理直觉不再是人类专属？LeCun等新研究揭示AI可如何涌现出此能力

在当今的 AI 领域，图灵奖得主 Yann LeCun 算是一个另类。即便眼见着自回归 LLM 的能力越来越强大，能解决的任务也越来越多，他也依然坚持自己的看法：自回归 LLM 没有光明的未来。

来自主题: AI技术研报

8223 点击 2025-02-20 16:55

2024-arXiv-FinRobot: 一种基于大语言模型的开源金融应用 AI 智能体平台

随着金融机构和专业人士越来越多地将大语言模型（LLMs）纳入其工作流程中，金融领域与人工智能社区之间依然存在显著障碍，包括专有数据和专业知识的壁垒。本文提出了 FinRobot，一种支持多个金融专业化人工智能智能体的新型开源 AI 智能体平台，每个代理均由 LLM 提供动力。

来自主题: AI技术研报

9135 点击 2025-02-20 11:33

人大刘勇团队「慢思考」机理分析：从雪球误差到正确推理概率

「慢思考」（Slow-Thinking），也被称为测试时扩展（Test-Time Scaling），成为提升 LLM 推理能力的新方向。近年来，OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等顶尖推理大模型的发布，进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。

来自主题: AI技术研报

5800 点击 2025-02-10 17:04